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一 种 基于 滑动 窗口 模型 的 MOOCs 辍学 率 
预测 方法 


1( 北 京 大 学 信息 管理 系 ”北京 100871) 
"(北京 大 学 教师 教学 发 展 中 心 北京 100871) 


摘要 : 【 目的 】 通 过 北京 大 学 在 Coursera 平台 上 运行 的 课程 数据 对 学 生 的 辍学 行为 进行 研究 ， 以 期 预测 学 
生 的 辍学 点 和 辍学 行为 , 改建 教学 莫 课 质量 和 方法 。[ 方法 】 在 课程 数据 基础 上 ,提取 19 个 特征 ,使 用 机 器 
学 习 算 法 构建 滑动 窗口 模型 ,动态 预测 学 习 者 辍学 率 。[ 结果 】 模 型 预测 准确 率 高 ,普遍 在 90% 以 上 , 效果 稳 
XE, 支持 向 量 机 (SVM) 和 长 短 记忆 网 络 (LSTM) 方 法 建 模 效果 更 好 。[ 局 限 】 课 程 数据 选课 人 数 偏 多 , 没有 考虑 
其 他 课程 数据 稀 下 问题， 模型 的 可 移植 性 仍 需要 进一步 考虑 。[ 结论 】 使 用 滑动 窗口 模型 建 模 , 能 够 帮助 
MOOC 课程 教师 和 设计 者 动态 地 追踪 课程 学 习 者 辍学 行为 ， 准 确 率 高 ,可 以 帮助 教师 通过 快速 的 反馈 来 调整 
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课程 ， 降 低 辍 学 率 。 
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MOOC H 2011 年 在 美国 兴起 以 来 , A ERTSVRI 
课程 数量 及 用 户 数 量 都 在 逐年 显著 增长 ， 对 高 等 教 
育 生态 、 高 校 教学 方法 、 管 理 制度 及 职业 培训 等 领 
域 的 影响 和 冲击 都 在 不 断 扩 大 ,国内 外 很 多 高 校 及 
机 构 都 在 不 断 进行 募 课 项 目的 尝试 与 实践 。 通 常情 
WT, E] MOOC 都 包括 课程 视频 、 课 程 论 坛 、 课 
程 维 基 、 课 程 小 测 、 作 业 和 课程 考试 等 模块 。 由 于 
划 课 是 在 线 教学 平台 ， 慕 课 平台 能 够 把 每 门 莫 课 的 
教 与 学 的 最 原始 数据 都 进行 记录 和 保存 , 为 以 数据 
为 基础 的 学 习 行 为 分 析 研 究 提 供 极 大 的 便利 ， 因 而 
吸引 了 全 球 范围 内 的 众多 人 研究 者 开展 莫 课 相关 的 数 
据 分 析 研 究 。 同 时 ， 由 于 莫 课 是 新 兴 的 且 在 不 断 发 
展 中 ， 敬 课 涉及 的 相关 研究 问题 众多 ， 基 于 莫 课 的 
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MOOC 具备 开放 、 免 费 等 众多 优势 , 由 于 不 具备 
师 生 面对面 交流 等 特点 , 造成 许多 传统 教学 所 没有 的 
问题 ， 其 中 最 引 人 注 目的 便 是 MOOC 极 高 的 辍学 率 。 
根据 相关 研究 数据 显示 ,国内 外 大 多 数 的 MOOC 课程 
结 课 率 不 足 13% 中 ,如何 提高 MOOC 的 课程 通过 率 ， 对 
辍学 行为 进行 预测 并 进行 干预 ,分 析 辍 学 原因 ， 改 善 
课程 质量 和 在 线 教学 方法 是 MOOC 教师 和 设计 者 十 
分 关注 的 问题 。 

本 文 从 北京 大 学 的 2013 年 秋季 、2014 年 春季 及 
2014 年 秋季 在 Coursera 平 台 上 开设 的 三 个 学 期 多 门 莫 
课 课 程 数据 作为 数据 样本 集 。 针 对 学 习 者 辍学 问题 ， 
统计 分 析 辍 学 时 间 和 开始 时 间 的 特点 ， 并 提出 一 种 滑 
动 窗口 模型 ， 动 态 地 预测 课程 学 生 的 整体 辍学 率 ， 帮 
助教 师 提升 课程 质量 ， 及 时 与 潜在 荣 课 退学 者 进行 沟 


学 习 者 学 习 行为 分 析 是 目前 该 领域 的 重要 研究 方向 


通 ， 提 供 帮助 和 反馈 ,进而 提升 课程 的 结 课 率 。 


通讯 作者 : 王 胜 清 ，ORCID: 0000-0002-7164-073X, E-mail: wangsq@pku.edu.cn。 
* 本 文系 教育 部 在 线 教育 研究 中 心 教育 基金 (全 通 教 育 ) 重 点 项 目 “ 莫 课 在 线 教学 组 织 方法 实证 研究 "(项 目 编号 : 2016ZD301) 的 研究 成 果 
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2 MOOC 辍学 率 问 题 的 相关 研究 


对 于 莫 课 学 习 者 什么 时 候 会 离开 课程 、 轰 学 这 一 
问题 , 国内 外 已 有 许多 学 者 在 研究 , 现 有 研究 的 分 析 
数据 可 分 为 两 大 类 : 论坛 数据 分 析 和 点 击 流 数据 分 
析 。 本 文 挑选 几 个 典型 的 辍学 率 研 究 进行 分 析 , 总 体 
而 言 ， 对 于 辍学 率 问 题 的 研究 虽然 比较 多 , 但 并 没有 
出 现 标准 化 的 学 界 共 同 认 可 的 研究 方法 ， 多 数 研 究 处 
于 探索 尝试 中 ,使 用 不 同 的 模型 和 方法 来 提高 慕 课 辍 
学 率 的 预测 准确 率 。 

Amnueypornsakul 等 种 使 用 学 习 者 的 点 击 流 数据 
预测 学 生 是 否 会 辍学 。 将 每 位 学 习 者 的 每 周 学 习 行为 
形成 序列 ， 如 <wwaaws> 表 示 学 习 者 在 课程 中 的 完整 
行为 : 浏览 课程 wiki、 浏 览 课 程 wiki、 做 测试 、 做 测 
试 、 浏 览 课 程 wiki、 提 交 测 试 。 将 每 位 学 习 者 的 每 周 
学 习 行 为 形成 序列 , 定义 三 种 学 习 者 : 活跃 、 弃 学 ( 即 
没有 学 习 行 为 )、 不 活跃 (学 习 行 为 序列 元 素 少 于 2 个 )。 
在 定义 “ 轰 学 ”时 , 分 为 三 种 情况 : 将 不 活跃 的 学 习 者 


归 为 辍学 者 , 将 不 活跃 的 学 习 者 归 为 活跃 学 习 者 , 将 
不 活跃 的 学 习 者 以 0.5 的 概率 归 为 辍学 者 、0.5 的 概率 
归 为 活跃 学 习 者 。 利用 SVM 进行 模型 构建 时 ,也 分 为 
两 种 情况 : 吻 除 不 活跃 用 户 进 行 预测 模型 构建 ; 包含 
不 活跃 用 户 进行 预测 模型 构建 。 至 此 , 共 构 建 6 种 模 
型 ,每 个 模型 基线 (Baseline) 为 学 习 者 本 周 学 习 行 为 序 
列 小 于 等 于 1 时 预测 下 周 辍学 情况 。 结 果 显 示 , 剔除 
不 活跃 的 用 户 进行 预测 模型 构建 时 , 准确 率 有 很 大 
提升 ; 如果 包 含 不 活路 的 用 户 进 行 预 测 , 将 不 活跃 的 
学 习 者 定义 为 不 属于 辍学 时 准确 率 较 高 ,但 依然 比 
基线 低 。 

Sinha 等 外 利用 视频 点 击 和 论坛 数据 , 构建 学 习 者 
的 活动 序列 ， 寻 找 能 够 代表 学 生 积极 或 消极 参与 课程 
的 足迹 序列 。 首 先 构建 学 习 者 每 周 的 活动 序列 ， 从 中 
提取 n-gram 序列 视频 观看 活动 序列 和 论坛 交互 序列 ， 
以 此 探究 何 种 序列 能 预测 学 习 者 辍学 以 及 何 种 序列 能 
让 学 习 者 保持 热情 参与 MOOC 学 习 。 并 从 两 个 方面 进 
行 实验 : 一 周 之 内 的 行为 如 何 影响 下 一 周 的 辍学 ; 自 
第 一 周 的 累积 学 习 行 为 如 何 影响 下 一 周 的 辍学 。 此 外 ， 
运用 社会 网 络 分 析 方 法 分 析 学 习 者 行为 序列 图 。 结 
显示 , 辍学 的 学 生 有 更 少 的 节点 、 边 、 强 连通 分 量 和 
自 回 路 ， 辍 学 行为 更 受 最 近 几 周 学 习 行 为 的 影响 。 且 


EB 数据 分 析 与 知识 发 现 


大 多 数 辍 学 的 学 生 是 在 课程 开始 的 几 周 后 开始 上 课 ， 
有 更 稀 玖 的 活动 图 。 有 两 种 可 能 的 解释 : 这 些 辍学 的 
学 生 有 特定 的 信息 需求 , 获取 所 需 信 息 后 不 再 上 课 ; 
后 来 加 入 的 学 生 由 于 之 前 的 材料 和 作业 太 多 ,难以 跟 
上 课程 而 放弃 。 

Taylor 等 中 预测 辍学 时 使 用 不 同 的 机 器 学 习 方 法 
做 了 很 多 尝试 , 包括 逻辑 回归 、 支 持 向 量 机 、 深 层 信 
念 网 络 、 决 策 树 、 隐 马尔 科 夫 模型 等 。 将 辍学 定义 为 
学 习 者 不 再 提交 任何 作业 和 测试 ,并 盘 选 学 习 者 的 14 
周 学 习 行 为 数据 进行 训练 和 测试 。 将 学 习 者 分 为 4 类 : 
消极 参与 .参与 编辑 wiki ,参与 编辑 论坛 积极 参与 ( 既 
编辑 wiki 又 编辑 论坛 ) 并 分 别 对 这 4 类 学 习 者 进行 建 
模 。 研 究 者 提出 超前 沛 后 (Lead and Lag) 的 预测 模式 ， 
即 给 定 一 周 i, 使 用 前 i 周 数据 预测 剩 下 的 14 一 周 。 在 
预测 中 , 探讨 各 个 特征 的 权重 ,以 及 哪些 特征 能 在 学 
习 的 开始 阶段 预测 其 能 否 坚 持 学 习 到 达 课 程 结束 。 结 
T bon, 对 于 消极 参与 群体 的 预测 准确 率 最 高 ， 而 由 
于 数据 量 不 足 ， 对 编辑 wiki 和 积极 参与 的 群体 的 预测 
准确 率 较 低 。 但 是 , 编辑 wiki 这 一 特征 能 够 较 好 反映 
学 习 者 能 否 坚 持 学 习 到 课程 结束 这 一 行为 。 如 数据 量 
充足 ,各 种 构建 模型 的 方法 的 预测 准确 率 差 别 不 大 。 
JF B, 对 于 某 周 预 测 , 最 近 4 周 的 数据 更 有 预测 性 ,在 
预测 特征 方面 , 结果 显示 ,对 于 那些 熟悉 MOOC 的 人 
能 够 提供 有 较 好 预测 性 的 特征 , 与 提交 人 作业、 测试 相 
关 的 特征 预测 性 都 很 高 ,发 帖 长 度 则 比 发 帖 数 更 有 预 
WE, 以 及 与 合作 社交 相关 的 特征 如 wiki 和 论坛 等 在 
预测 中 十 分 重要 。 
此 外 , 一 些 相关 研究 也 有 一 定 启 发 意义 。 如 Kloft 
等 外 使 用 点 击 流 数 据 和 机 器 学 习 算法 预测 辍学 行为 ， 
并 且 在 预测 过 程 中 ， 对 每 个 特征 向 量 做 辍学 预测 性 的 
检验 ; 结果 显示 前 8 周 预测 效果 不 好 ,后 面 每 周 预测 
效果 上 升 ; 分 析 原 因为 前 几 周 数据 量 少 , 并 建议 加 入 
论坛 数据 进行 预测 。Sharkey 等 所 则 详细 描述 使 用 机 器 
学 习 技术 预测 辍学 的 迭代 过 程 , 并 通过 研究 得 出 带 有 
预测 性 的 特征 以 及 它们 的 相对 权重 。 结 果 显 示 , Plan 
学 习 模 型 在 预测 辍学 方面 高 于 平均 水 平 ， 预 测 因素 也 
与 人 们 的 期 竺 相同 ,都 是 能 够 显示 学 生 是 和 否 热情 参与 
的 变量 。Yang 等 的 的 研究 显示 社交 因素 (论坛 ) 对 辍学 
确实 有 影响 ,并 给 予 MOOC 设计 者 启示 。 


通过 上 述 研 究 ,发现 学 生 的 点 击 流 数据 分 析 是 目 
前 辍学 率 问题 研究 的 主要 方向 ， 基 于 点 击 流 数 据 构建 
更 为 优化 的 数据 分 析 模 型 是 本 文 的 重点 研究 方向 。 


3 建 模 与 实验 


选取 北京 大 学 2013 秋季 、2014 年 春季 及 2014 年 
秋季 开设 的 3 个 学 期 共计 5 门 的 MOOC 课程 的 日 志 
数据 作为 分 析 对 象 。 经 过 研究 分 析 发 现 , MOOC 课程 
中 主要 有 两 种 模式 : 一 门 课 重 复 多 个 学 期 开设 ,每 个 
学 期 的 课程 内 容 相同 ; 一 门 课程 分 成 上 下 两 个 学 期 开 
设 , 前 一 学 期 课程 是 后 一 学 期 课程 的 基础 。 据 此 作为 


挑选 课程 的 原则 和 依据 ， 基 于 这 两 种 模式 ,选择 已 开 
设 3 个 学 期 的 生物 信息 学 和 已 开设 两 个 学 期 的 社会 调 
查 与 研究 方法 (上 )、( 下 ) 共 5 门 课程 。 一 方面 因为 
这 5 门 课程 满足 这 两 种 课程 模式 ， 另 一 方面 这 5 门 
课程 的 学 习 者 很 多 ,学 习 行 为 的 数据 量 大 ,便于 开 
展 研 究 。 
3. 数据 来 源 

为 能 够 对 MOOC 辍学 情况 有 更 为 直观 的 认识 ， 
文 统计 了 这 5 门 MOOC 课程 的 注册 人 数 、 记 录 有 成 
绩 、 成绩 大 于 0 的 人 数 、 最 终 成 绩 大 于 60 及 每 门 课程 
的 通过 比例 , 如 表 1 所 示 。 


表 1 课程 注册 人 数 与 通过 比例 


课程 ID 课程 名 注册 人 数 — 记录 有 成 绩 ”最 终 成 绩 大 于 0 最 终 成 绩 大 于 60 通过 比例 (%) 
methodologysocial2-001 社会 调查 与 研究 方法 (下 ) 3 566 3184 371 185 5.1879 
methodologysocial-001 ”社会 调查 与 研究 方法 (上 ) 7 836 6051 6 051 255 3.2542 
pkubioinfo-002 2014 生物 信息 学 002 16 714 15 790 1 268 510 3.0513 
pkubioinfo-001 2013 生物 信息 学 001 18 367 18 367 1 620 520 2.8312 
pkubioinfo-003 生物 信息 学 -导论 与 方法 16 958 16 072 909 360 2.1229 


X1 显示, 这 5 门 课程 的 通过 比例 均 不 高 于 696, 与 
其 他 相关 研究 中 所 得 情况 基本 一 致 。 这 无 疑 是 MOOC 
辍学 率 高 、 通 过 人 数 占 比 小 的 一 个 局 部 反映 ， 某 种 程度 
上 来 说 , 也 更 凸显 了 对 MOOC 辍学 进行 预测 的 必要 性 。 
3.2 ”特征 提取 

每 门 MOOC 课程 都 包括 教学 视频 、 小 测 、 论 坛 等 


交互 活动 的 部 分 是 相对 小 众 的 ， 占 比较 小 。 这 也 是 许 
多 当前 的 课程 引入 同伴 评价 作业 形式 ， 以 加 强 双向 参 
与 的 原因 。 

在 获取 点 击 流 数据 时 ， 发 现 学 生 的 在 线 学 习 行 为 
主要 聚焦 于 观看 视频 、 查 阅 资料 和 完成 作业 相关 的 行 
为 。 据 此 提取 观看 视频 、 查 阅 资料 的 内 容 获取 的 8 个 学 


不 同 的 学 习 模 块 。 为 了 能 够 更 准确 地 对 学 习 者 的 学 习 
行为 进行 预测 , 本 文 抽 取 多 个 学 习 行 为 数据 , 包括 视 
频 点 击 流 、 课 堂 测 验 和 课程 论坛 。 

在 获取 具体 数据 时 , 通过 对 日 志文 件 中 的 URL 提 
取 关 键 字 ,辨别 学 习 者 利用 的 学 习 模 块 ， 获取 其 一 段 
时 间 内 的 学 习 行 为 数据 。 

学 习 者 将 会 通过 观看 视频 、 参 与 论坛 、 进 行 测试 
等 多 种 形式 参与 到 课程 的 学 习 中 。 参 与 过 程 具备 以 下 
两 个 重要 的 特征 。 

(1) 课程 进度 是 以 周 为 单位 推进 的 , 学 习 者 可 以 在 
一 周 内 的 任意 时 间 段 完成 该 周 的 学 习 任务 。 事实 上 , 可 
以 在 更 小 的 时 间 单 位 下 ,讨论 对 于 学 习 行 为 的 追踪 。 

Q) 学 习 者 的 学 习 行为 是 单 向 为 主 , ARIT 
为 的 模式 。 学 习 行 为 中 大 部 分 是 单 向 地 接受 知识 的 过 
T, 反映 在 点 击 、 浏 览 等 行为 特征 上 ; 而 双向 即 学 习 者 


习 行 为 特征 及 在 线 完成 作业 的 相关 的 3 个 行为 特征 。 
关于 是 否 将 课程 论坛 数据 引入 为 特征 数据 , 研究 
者 之 间 的 观点 存在 分 上 法 。Amnueypornsakul 等 中 认为 ， 
只 有 5%-10% 的 学 生 会 参与 论坛 , 大 多 数学 习 者 没有 
任何 的 论坛 行为 数据 。 对 这 些 不 参与 论坛 的 学 习 者 ， 
利用 论坛 数据 进行 预测 并 不 恰当 ， 因 而 决定 不 使 用 论 
坛 数据 ， 只 使 用 点 击 流 数 据 。 基 于 此 ， 本文 对 论坛 参与 
行为 与 学 习 者 是 否 取 得 成 绩 进 行 相关 性 检验 。 相 关 性 
检验 公式 如 下 所 示 。 
RSETINSET?2) () 
SET2 
本 文 定义 至 少 参 与 1 次 论坛 行为 的 用 户 集合 为 
SET1， 而 取得 成 绩 的 用 户 集合 为 SET2, 发 现 每 一 门 
课程 中 ，SE77 5 SET2 都 具有 很 高 的 重合 率 ， 如 表 2 
所 示 。 
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K2 有 学 习 成 绩 与 有 论坛 行为 重合 率 统计 


课程 ID 有 论坛 成 绩 有 论坛 行为 且 有 论坛 行为 在 有 成 绩 有 论坛 行为 在 成 绩 大 于 60 
行为 大 于 60 成 绩 大 于 60 学 习 者 中 占 比 (%) 的 学 习 者 中 的 占 比 (%) 
pkubioinfo-001 2 645 580 511 68.3333 88.1034 
pkubioinfo-002 1 425 508 395 54.5741 71.1559 
pkubioinfo-003 1 523 358 316 66.9967 88.2682 
methodologysocial-001 1165 290 269 17.8318 92.7586 
methodologysocial2-001 326 203 153 64.4205 75.3695 


以 methodologysocial-001 课程 为 例 , SET] Ej SET2 
的 重合 率 约 为 92.8%， 也 就 是 说 ,该 课程 中 最 后 通过 
课程 的 学 习 者 中 有 约 92.8% 都 参与 了 该 课程 的 论坛 。 
因而 , 本文 认为 , 论坛 参与 行为 对 于 学 习 者 是 否 
会 坚持 学 习 有 明显 的 预示 -标识 作用 ， 所 以 将 学 生 参 
与 论坛 的 数据 加 入 到 预测 模型 中 。 
3.3 ”特征 列表 
经 过 研究 分 析 ， 本 文 提取 的 特征 数据 项 主要 有 19 
项 ,如 表 3 所 示 。 
表 3 提取 特征 列表 


行 统一 定义 ,， 并 以 周 为 单位 进行 划分 。 

由 于 课程 数量 众多 , 起 始 时 间 不 一 ， 本 文 将 每 个 
学 习 者 的 开始 时 间 定 义 为 第 一 条 视频 点 击 数据 出 现 的 
时 间 。 为 确定 学 习 结束 的 时 间 ， 且 使 得 最 后 几 周 仍 有 
足够 的 数据 用 以 预测 ， 以 维持 较 好 的 预测 准确 率 ， 对 
这 5 门 课程 中 取得 成 绩 的 学 习 者 最 后 一 次 学 习 行 为 发 
生 的 时 间 进 行 统计 ,并 选择 取得 成 绩 的 人 中 前 80% 的 
人 结束 学 习 的 时 间作 为 课程 的 结束 时 间 。 

如 图 1 所 示 , 2013 年 社会 调查 与 研究 方法 (上 ) 课 程 
中 取得 成 绩 的 人 数 中 , 学 习 行 为 结束 的 时 间 中 最 早 的 
为 第 9 周 , 最 晚 的 为 第 19 周 ， 其 中 有 80% 的 学 习 者 在 


特征 FE 数据 类 型 “备注 a er l 
: : 第 14 周 便 结束 了 学 习 , 因 此 将 第 14 周作 为 2013 年 社 
i I 查看 网 页 mJ dcl " g pes 
DAMM ibo os 会 调查 与 研究 方法 (上 ) 课 程 的 结束 时 间 ,使 得 课程 末 
page view quiz Int 查看 测试 页 面 " " 2d M AB 
i rem mnes o 期 的 预测 准确 率 得 到 保障 。 其 他 课程 与 此 类 似 。 
点 击 流 page view lecture Int 查看 视频 页 面 methodologysocial-001 — |] | ! 
page view wiki Int 观看 课程 wiki ,, methodologysocial2-001 M EN 
viedo view times Int 观看 视频 次 数 prabrointa-00 55 ma 
video_pause_times Int 视频 暂停 次 数 9 pkubiomto7002 [T] 
. — pkubioinfo-003 1 CT TT 
video pause speed Float 播放 速 A aee D UR EC GC WR 
try hw Int 尝试 作业 次 数 Week 
作业 测试 ”try_quiz Int 尝试 小 测 次 数 图 1 课程 开始 结束 时 间 示 意 
try_lec Int 尝试 讲座 次 数 
ea 二 人 类 
view forum Int 查看 论坛 us 本 
cpu Mes 在 线 学 习 人 数 是 指 每 周 有 学 习 行为 发 生 的 人 数 ， 
post thread Int 创建 线程 以 这 5 门 课 为 例 进 行 统计 ， 结果 如 图 2 所 示 。 这 5 门 
—TL IT 课程 的 学 习 人 数 均 时 现在 初期 迅速 上 升 ,之 后 从 急剧 
pos 下 降 转变 为 平缓 下 降 的 态势 。 此 外 , 这 些 课程 最 后 阶 
D t Int E Ny Y— o M y E3 Y 
on "MEG 段 仍 在 学 习 的 人 数 远 远 低 于 学 习 人 数 最 多 的 初期 , 在 
add tag Int 增加 标签 ， 
del tag iat 删除 标签 一 定 程度 上 也 反映 出 MOOC 辍学 现象 的 普遍 性 。 


3.4 学 习 周 期 
学 习 周 期 是 指 学 习 者 的 学 习 开始 与 结束 时 间 , 为 
了 能 够 统一 标准 , 需要 对 学 习 开 始 时 间 和 结束 时 间 进 
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3.6 ”开始 点 、 辍 学 点 及 辍学 

对 每 个 人 的 开始 时 间 和 辍学 时 间 进 行 更 深入 的 统 
计 分 析 。 由 于 MOOC 在 课程 期 间 任何 时 候 都 可 以 开始 
学 习 和 结束 学 习 ， 因 此 每 个 人 在 MOOC 上 停留 的 周 数 
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Week 


-m- pkubioinfo-002 ^ -4- pkubioinfo-003 
-o- methodologysocial2-001 


-@- pkubioinfo-001 
-e- methodologysocial-001 


H2 课程 在 线 学 习 人 数 变动 示意 图 
差距 很 大 。 本 文 将 每 个 学 习 者 某 周 是 否 有 学 习 行 为 定 
义 为 1 或 者 0 有 学 习 行 为 定义 为 1), 这 样 可 以 获得 每 
个 学 习 者 每 周 是 否 出 现 的 特征 序列 。 如 果 某 个 学 习 者 
在 第 三 周 进 入 课程 , 则 其 特征 序列 为 0-0-1-……。 定 义 
第 一 次 出 现 1 的 周 为 开始 点 ; 如 果 某 个 学 习 者 在 某 周 
之 后 不 再 出 现 ， 即 序列 为 ……1-0-0……-0， 则 定义 该 
周 的 下 一 周 为 辍学 点 。 同 时 笔者 认为 从 辍学 点 开始 ， 
这 个 学 生 已 经 从 本 门 课 程 辍学 ， 即 从 辍学 点 开始 学 习 
者 不 再 出 现 。 研 究 着 重 观察 每 个 辍学 点 的 辍学 人 数 以 
及 开始 点 与 辍学 点 之 间 的 关系 。 

通过 观察 这 5 门 课 程 的 每 周 辍学 人 数 ,发 现在 课 
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程 开始 两 周 后 , 课程 的 辍学 人 数 会 达到 一 个 高 峰 , 在 
课程 临近 结束 时 ， 辍 学 人 数 又 会 有 一 定 的 上 升 ， 课 程 
中 期 的 辍学 人 数 则 比较 平稳 ,如 图 3 所 示 。 


2500 - : r 
— methodologysocial-001 
— methodologysocial2-001 
2000. — pkubioinfo-001 | 


— pkubioinfo-002 
— pkubioinfo-003 


1500 


Students 


1000 } 


0 2 4 6 8 10 12 14 16 18 
Week 
图 3 课程 辍学 人 数 变 动 示意 图 


原因 可 能 为 ,学 习 者 在 学 习 该 课 几 周 后 ， 对 该 课 
有 了 一 定 的 了 解 , 会 根据 该 课 是 否 适合 自己 而 做 出 是 
否 辍学 的 选择 ; 在 课程 结束 时 ， 并 不 在 意 期 末 考 试 或 
RE t: BUSES A T SEG PRSE BEER, 也 会 有 一 部 
分 学 习 者 因 自 认为 无 法 获得 证 书 而 辍学 。 中 间 阶 段 辍学 
人 数 的 平稳 则 恰恰 可 能 反映 了 正常 的 学 习 者 流入 和 流 
出 ， 也 反映 出 坚持 到 中 间 阶 段 的 学 习 者 辍学 概率 较 小 。 
图 4 考察 开始 点 与 辍学 点 之 间 的 联系 。 图 4 中 纵 
坐标 表示 每 周 辍学 率 ( 即 辍学 人 数 占 某 周 开始 的 总 人 
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图 4 开始 点 及 辍学 点 关系 
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数 的 比率 ), 横 坐标 表示 时 间 ， 即 当前 是 第 几 周 ， 从 左 
到 右 的 折线 表示 第 n 周 开始 。 通 过 比 对 图 表 之 中 的 共 
ME, 发 现 : 开始 的 时 间 越 晚 ， 学习 一 周 就 辍学 的 比率 
越 高 ; 开始 的 时 间 越 早 , 坚持 到 后 面 几 周 的 比率 越 高 。 
说 明 开 始 的 时 间 越 早 , 越 有 可 能 坚持 到 最 后 。 开 始 的 
时 间 越 晚 ， 在 下 一 周 辍学 的 可 能 性 越 大 。 此 处 可 援引 
Sinha 等 中 的 解释 , 一 种 可 能 是 开始 较 晚 的 人 由 于 之 前 
的 材料 和 课程 内 容 太 多 而 难以 跟 上 , 另 一 种 可 能 是 开 
始 较 晚 的 人 更 可 能 是 专 为 谋求 某 种 特定 的 信息 而 来 ， 
获取 后 即 不 再 学 习 。 
3.7 ”滑动 窗口 模型 的 构建 

在 上 述 分 析 定 义 的 基础 上 , 重点 讨论 滑动 窗口 模 
型 的 构建 ,用 以 预测 学 习 者 是 否 辍学 。 该 模型 将 整个 
学 习 周 期 视 为 一 个 连续 序列 ， 通 过 之 前 若干 周 的 特征 
向 量 , 预测 未 来 儿 周 学 习 者 是 否 会 参与 课程 。 如 图 5 


Jj m m 


Week 1 = Week 2 = Week 3 


由 于 MOOC 课程 中 大 部 分 的 学 习 者 都 不 会 坚持 
到 最 后 ,因此 定义 基线 为 预测 所 有 学 习 者 下 周 不 会 再 
出 现在 课程 中 , 进而 比较 各 个 模型 相对 基线 的 改进 。 
基线 预测 会 导致 很 多 的 错误 , 但 也 是 最 简单 直接 的 预 
测 。 这 一 预测 方式 在 现实 中 也 有 大 量 的 应 用 ， 如 教师 
会 伴随 着 课程 的 进行 不 断 地 广发 邮件 或 励 学 习 者 继续 
FA, 即使 该 学 习 者 在 下 一 周 不 会 流失 。 引 入 机 如 学 
习 的 方法 可 以 改进 这 种 策略 。 对 于 预测 模型 , 采用 好 
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所 示 , 滑动 窗口 模型 分 为 前 后 两 个 窗口 , 第 一 个 窗口 
KEX w, 即 当 前 周 的 前 wi 周 ， 如 果 当 前 周 为 第 n 周 ， 
则 窗口 内 为 第 n-wi 至 ml 周 。 第 二 个 窗口 长 度 为 w, 
即 包 括 当前 周 及 之 后 的 ws 周 ， 如果 当 前 周 为 第 n 周 ， 
则 窗口 内 为 第 n 周至 第 nw 周 。 该 模型 使 用 窗口 长 
度 为 wi 周 内 的 19 维特 征 向 量 的 点 击 流 数据 ,预测 之 
后 wa 的 标签 ， 以 wa 的 标签 (Label) 为 分 类 目标 ， 即 辍学 
或 者 不 辍学 ; 通过 窗口 的 滑动 , 对 课程 的 每 一 周 进行 
学 习 者 是 否 辍学 的 预测 。 因此 辍学 是 指 wo 长 度 周 学 习 
者 是 否 有 学 习 行 为 , 没有 即 为 辍学 。 由 于 该 模型 只 关 
注 当 前 窗口 内 学 习 者 的 特征 向 量 ， 而 没有 将 学 习 者 
从 前 至 后 的 所 有 学 习 行为 联系 起 来 ， 因 此 并 不 重点 
关注 个 人 学 习 者 的 辍学 和 什么 时 候 辍 学 ， 只 关注 学 
生 有 无 学 习 行 为 的 总 体 情况 ， 即 当前 窗口 内 , 会 有 多 


DARE. 


Label 
Week t 
X, Features 


结果 如 图 6 所 示 。 通 过 分 析 , 可 见 以 下 特点 。 

(1) 基线 准确 率 总 体 偏 高 。 这 是 因为 每 周 都 会 有 
较 多 的 人 辍学 , 普遍 情况 下 辍学 率 在 70%， 因 此 基线 
的 准确 率 就 会 偏 高 。 

(2) 课程 开始 和 结束 时 期 的 辍学 率 处 于 峰值 。 早 
期 离开 的 人 多 ,因为 学 习 者 在 早期 会 尝试 学 习 , AA 
不 适合 自己 等 原因 就 会 放弃 学 习 ; 而 临近 课程 的 末期 ， 
也 会 有 很 多 人 因为 课程 的 压力 而 放弃 , 在 此 时 进行 适 


辑 回归 (LR)D、 支 持 向 量 机 (SVM) 馈 、 多 层 感知 器 
(MLP), KAgjlifipfZ(LSTM) 9f 41228 

在 前 述 5 门 课程 上 进行 滑动 窗口 模型 的 实验 。 选 
Wew HEET, 如 果 wi 太 短 ， 如 wi=1， 即 前 一 周 预测 后 
一 周 , 模型 粗略 简单 ; 如 果 wi KK, LITIR, 根 
据 以 往 研 究 , 选择 wi=3, ws=1， 并 对 模型 进行 5-fold 交 
叉 检验 。 把 数据 分 成 5 个 部 分 , 选择 1 个 作为 测试 数 
据 , 剩 下 4 个 作为 训练 数据 ,实验 重复 5 次, 平均 实验 
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当 干预 和 鼓励 或 许可 以 显著 降低 辍学 率 。 

(3) 普遍 情况 下 ， 机 器 学 习 方法 预测 效果 好 。 在 不 
同 的 机 器 学 习 方 法 中 , 逻辑 回归 代表 基本 情况 下 机 器 
学 习 模型 的 预测 能 力 。 相 比 简单 地 认为 学 习 者 不 能 ! 
持 学 习 , 机 器 学 习 能 够 更 好 地 识别 出 能 坚持 学 习 的 学 
习 者 。 但 其 预测 能 力 有 限 , 需要 更 多 的 特征 数据 才能 
达到 更 好 的 效果 。 

(4) LSTM 和 SVM 效果 较 好 。 相 比 多 层 感 知 器 和 
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图 6 各 个 模型 在 $ 门 课程 上 的 预测 准确 率 (Wwi=3, ws=1) 


逻辑 回归 ,这 两 种 方法 预测 能 力 更 好 , 效果 稳定 , 不 
受 数 据 量 的 影响 。 

进一步 将 后 置 的 窗口 扩大 ， 即 预测 接 下 来 几 周 的 
表现 , 如 图 7 所 示 。 取 ws=3, 这 时 会 出 现 000,001,010， 
100,011,101,110,111, 共 8 种 情况 ， 对 应 不 同 的 分 类 0-7。 
对 后 置 窗口 的 情况 , 本 文 使 用 Baselinel 代表 预测 接 下 
来 3 周 不 会 有 学 习 行 为 发 生 的 情况 ， 即 000; Baseline2 
则 代表 预测 连续 3 周 都 有 学 习 行 为 发 生 的 情况 , 即 111。 

经 过 实验 , 发 现 该 结果 呈现 以 下 的 特点 : 学 习 者 
未 来 三 周 的 学 习 行 为 中 , 000 比例 相对 较 高 , 111 的 比 
例 相对 较 低 , 并 且 课 程 开始 和 课程 结束 时 111 的 比例 
都 是 最 低 的 。 即 在 课程 开始 和 结束 阶段 ,进行 连续 
周 学 习 的 学 习 者 比例 很 低 。 此 外 , 在 预测 后 面 多 周 
学 生 是 否 轰 学 情况 下 ，SVM 将 其 简化 为 多 分 类 问题 
是 有 效 的 ， 因为 000 的 比例 相对 较 高 。 而 LSTM 和 
SVM 虽然 方法 上 存在 差异 , 但 是 结果 均 保 持 较 高 的 
准确 率 。 


滑动 窗口 模型 初步 解决 了 对 于 课程 不 同 阶段 的 监 
探 、 预 测 问题 , 并 发 现 MOOC 课程 的 开始 阶段 和 结 
阶段 是 对 于 学 习 者 最 具 挑 战 的 阶段 ， 容 易 造 成 辍学 。 
在 这 一 阶段 辍学 的 原因 与 MOOC 本 身 特点 有 关 , 学 习 
者 在 早期 可 能 只 是 了 解 课 程 , 在 发 现 不 适合 自己 之 后 ， 
会 选择 离开 ,这 是 前 期 辍学 率 较 高 的 原因 。 因 此 课程 
本 身 如 果 能 够 激发 学 习 者 的 兴趣 ,并 且 在 前 期 保持 对 
学 习 者 的 关怀 和 帮助 , 将 会 有 利于 课程 进入 相对 平稳 
的 时 期 ; 而 在 学 期 结束 时 ， 由 于 期 末 考 试 , 会 有 不 少 
的 学 习 者 选择 离开 课程 。 因 此 如 果 能 够 在 学 期 末 采 取 
一 些 能 够 鼓励 学 习 者 完成 最 后 考核 的 策略 ,例如 复习 
课程 等 , 则 会 有 利于 在 学 期 结束 时 降低 辍学 率 ， 豆 励 
他 们 最 后 取得 成 绩 。 男 外 , 虽然 本 研究 仅 选取 5 门 课 
程 的 数据 , 但 实验 时 课程 名 是 变量 ,可 以 修改 为 任意 
课程 ， 因 此 把 本 模型 应 用 于 其 他 MOOC 课程 进行 辍学 
率 预测 ， 如 大 学 化 学 、 计 算 概 论 、 刑 法 学 、 人 群 与 网 
络 课程 中 , 发 现 依然 是 有 效 的 。 
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Predicting Dropout Rates of MOOCS with Sliding Window Model 
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Abstract: [Objective] This paper aims to improve the MOOCS curriculum quality and pedagogy by analyzing the 
dropout behaviors with data from the MOOC of Peking University on Coursera. [Methods] We extracted 19 major 
features from the logs and then constructed a siding window model to predict the dropout rates. [Results] The precision 
of the proposed model was maintained above 90%. The SVM and LSTM methods further improved the performance of 
the proposed model. [Limitations] The new method needs to be examined with smaller sized courses. [Conclusions] 
Predicting dropout rates could help us improve the course quality effectively. 
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